90 research outputs found

    Experiences in Automatic Keywording of Particle Physics Literature

    Get PDF
    Attributing keywords can assist in the classification and retrieval of documents in the particle physics literature. As information services face a future with less available manpower and more and more documents being written, the possibility of keyword attribution being assisted by automatic classification software is explored. A project being carried out at CERN (the European Laboratory for Particle Physics) for the development and integration of automatic keywording is described

    Toward conceptual indexing using automatic assignment of descriptors

    Get PDF
    Indexing techniques have reached a well maturated state. Digital libraries and other digital collections make an intense use of these algorithms to store and retrieve documents. In the other side, we have browsing techniques, which lets the user to gather the information. Current approaches are not yet advanced enough in order to satisfy the user. At CERN we are working in a indexer based on thesaurus descriptors. With a collection of documents related to thesaurus, user can manipulate them in a more conceptual way. Here we describe the core of this system, the automatic descriptor assigner

    Proyecto de indexado automático para documentos en el campo de la física de altas energías

    Get PDF
    Se describe aquí el sistema HEPindexer, un indexador automático para documentos sobre Física de Altas Energías. En su primera fase se ha conseguido la proposición de palabras clave primarias usando el tesauro del laboratorio alemán DESY. Los resultados, utilizando un enfoque estadístico, esperanzan la consecución de una herramienta eficaz de ayuda en el proceso de indexado

    Experiences in Automatic Keywording of Particle Physics Literature

    Get PDF
    Attributing keywords can assist in the classification and retrieval of documents in the particle physics literature. As information services face a future with less available manpower and more and more documents being written, the possibility of keyword attribution being assisted by automatic classification software is explored. A project being carried out at CERN (the European Laboratory for Particle Physics) for the development and integration of automatic keywording is described

    Prediction system for job and service requests in professional sectors

    Get PDF
    El presente trabajo presenta un sistema que predice peticiones de trabajos y servicios en formato de texto en categorías o sectores profesionales. Se realiza una comparativa de distintos algoritmos de Categorización Automática de Textos para evaluarlos y construir el sistema. El sistema forma parte de una aplicación web que intermedia entre particulares que demandan presupuestos sobre trabajos y profesionales que buscan clientes y ofertan servicios.System that predicts job requests and services in text format into categories or sectors. A comparison of different algorithms for Automatic Text Categorization is performed in order to build the final system. The system is part of a web application that mediates between individuals who demand estimates about jobs and professionals who seek clients and offer services

    Biblioteca de Complejidad Textual

    Get PDF
    This paper introduces a new resource for computing textual complexity. It consists in a Python library for calculating different complexity metrics for several languages from plain texts. The resource has been made available to the research community and provides all needed instructions for its installation and use. To our knowledge, it is the first time a resource like this is published, so we expect many researchers can profit from it.Este artículo presenta un nuevo recurso para el cálculo de la complejidad textual. Se trata de una biblioteca de programación en Python que facilita el cómputo de distintas métricas de complejidad para varios idiomas a partir de textos en lenguaje natural. El recurso se ha liberado para su uso por parte de la comunidad científica y proporciona todas las instrucciones necesarias para su instalación y aprovechamiento. Hasta donde sabemos, es la primera vez que un recurso así está disponible, por lo que esperamos sea de utilidad.This work has been partially supported by Fondo Europeo de Desarrollo Regional (FEDER), LIVING-LANG project (RTI2018-094653-B-C21) from the Spanish Government

    Text categorization using bibliographic records : beyond document content

    Get PDF
    En este artículo se estudia el uso de diferentes fuentes de información para tareas de clasificación de textos. Dado el creciente número de bibliotecas digitales, se impone una revisión de la información disponible en dichas bases de datos. Se han llevado a cabo una serie de experimentos de clasificación multi-etiquetado dentro del dominio de la Física de Altas Energías haciendo uso de diferentes clasificadores base y combinando distintas fuentes de información. Los resultados muestran que el uso de metadatos es tan válido como el uso de versiones a texto completo de los documentos.This paper studies the use of different sources of information for performing a text classification task. The growing number of digital libraries imposes a review of the available data from those databases. Some experiments applying different base classifiers for a multi-label classifier in the domain of High Energy Physics on several of these possible sources have been carried out. Results show that the use of metadata is almost as good as the full-text version of papers.This work is partially financed by the Spanish Minister of Science and Technology, by means of project TIC2003- 07158-C04-04

    El Catálogo General del Patrimonio Histórico Andaluz en las hoyas de Guadix y Baza

    Get PDF

    El catálogo general del patrimonio histórico andaluz en la campiña cordobesa

    Get PDF

    Un enfoque del filtrado de léxico para perfiles de autor

    Get PDF
    This paper studies the influence of a general Spanish lexicon and a domain-specific lexicon on a text classification problem. Specifically, we address the impact of the choice of lexicons for user modelling. To do so, we identify gender and profession as demographic traits, and political ideology as a psychographic trait from a set of tweets. We experimented with machine learning and supervised learning methods to create a prediction model with which we evaluated our specific lexicon. Our results show that the choice and/or construction of lexicons to support the resolution of this task can follow a given strategy, characterised by the domain of the lexicon and the type of words it contains.Este trabajo estudia la influencia de un léxico general del español y un léxico específico del dominio en un problema de clasificación de textos. En concreto, abordamos el impacto de la elección de léxicos para el modelado de usuarios. Para ello, identificamos el género y la profesión como rasgos demográficos, y la ideología política como rasgo psicográfico a partir de un conjunto de tuits. Experimentamos con métodos de aprendizaje automático y aprendizaje supervisado para crear un modelo de predicción con el que evaluamos nuestro léxico específico. Nuestros resultados muestran que la elección y/o construcción de léxicos para apoyar la resolución de esta tarea puede seguir una estrategia determinada, caracterizada por el dominio del léxico y el tipo de palabras que contiene.This work has been partially supported by projects Big Hug (P20 00956, PAIDI 2020) and WeLee (1380939, FEDER Andalucía 2014-2020) both funded by the Andalusian Regional Government, and projects CONSENSO (PID2021-122263OB-C21), MODERATES (TED2021-130145B-I00), Social-TOX (PDC2022-133146-C21) funded by Plan Nacional I+D+i from the Spanish Government, and project PRECOM (SUBV-00016) funded by the Ministry of Consumer Affairs of the Spanish Government
    corecore